۲۴ شهریور ۱۴۰۴فارسی

قفل ماژول Collections پایتون را باز کنید: deque را برای عملیات صف کارآمد، Counter را برای تجزیه و تحلیل فراوانی و defaultdict را برای ساختاربندی ساده داده‌ها بررسی کنید. عملکرد را با مثال‌های عملی تقویت کنید.

بررسی عمیق ماژول Collections: بهینه‌سازی deque، Counter و defaultdict

ماژول collections پایتون گنجینه‌ای از انواع داده‌های ظرف تخصصی است که جایگزین‌هایی برای dict، list، set و tuple داخلی پایتون ارائه می‌دهد. این ظروف تخصصی برای موارد استفاده خاص طراحی شده‌اند و اغلب عملکرد بهبود یافته یا قابلیت‌های پیشرفته‌ای را ارائه می‌دهند. این راهنمای جامع به بررسی سه مورد از مفیدترین ابزارها در ماژول collections می‌پردازد: deque، Counter و defaultdict. ما قابلیت‌های آن‌ها را با مثال‌های دنیای واقعی بررسی خواهیم کرد و در مورد چگونگی استفاده از آن‌ها برای عملکرد بهینه در پروژه‌های پایتون شما بحث خواهیم کرد، با در نظر گرفتن بهترین شیوه‌ها برای بین‌المللی‌سازی و کاربرد جهانی.

درک ماژول Collections

قبل از اینکه به جزئیات بپردازیم، مهم است که نقش ماژول collections را درک کنیم. این ماژول سناریوهایی را مورد توجه قرار می‌دهد که در آن ساختارهای داده داخلی کوتاهی می‌کنند یا ناکارآمد می‌شوند. با استفاده از ابزارهای مناسب collections، می‌توانید کد مختصرتر، خواناتر و با عملکرد بهتری بنویسید.

deque: پیاده‌سازی‌های کارآمد صف و پشته

deque چیست؟

deque (تلفظ "deck") مخفف "double-ended queue" (صف دو طرفه) است. این یک ظرف شبیه لیست است که به شما امکان می‌دهد به طور موثر عناصر را از هر دو طرف اضافه و حذف کنید. این امر آن را برای پیاده‌سازی صف‌ها و پشته‌ها، که ساختارهای داده اساسی در علوم کامپیوتر هستند، ایده‌آل می‌کند.

برخلاف لیست‌های پایتون، که می‌توانند برای درج یا حذف عناصر در ابتدا ناکارآمد باشند (به دلیل جابجایی تمام عناصر بعدی)، deque پیچیدگی زمانی O(1) را برای این عملیات فراهم می‌کند، که آن را برای سناریوهایی که در آن مکرراً موارد را از هر دو طرف اضافه یا حذف می‌کنید، مناسب می‌سازد.

ویژگی‌های کلیدی deque

افزودن و حذف سریع: deque پیچیدگی زمانی O(1) را برای افزودن و حذف عناصر از هر دو طرف فراهم می‌کند.
امن برای رشته: deque برای رشته امن است و آن را برای محیط‌های برنامه‌نویسی همزمان مناسب می‌سازد.
بهینه از نظر حافظه: deque از یک لیست پیوندی دوطرفه در داخل استفاده می‌کند و استفاده از حافظه را برای درج و حذف مکرر بهینه می‌کند.
چرخش‌ها: deque از چرخاندن عناصر به طور موثر پشتیبانی می‌کند. این می‌تواند در کارهایی مانند پردازش بافرهای دایره‌ای یا پیاده‌سازی الگوریتم‌های خاص مفید باشد.

مثال‌های عملی deque

1. پیاده‌سازی یک صف محدود

یک صف محدود، صفی با حداکثر اندازه است. هنگامی که صف پر است، افزودن یک عنصر جدید قدیمی‌ترین عنصر را حذف می‌کند. این در سناریوهایی مانند مدیریت یک بافر محدود برای داده‌های ورودی یا پیاده‌سازی یک پنجره کشویی مفید است.

            from collections import deque

def bounded_queue(iterable, maxlen):
 d = deque(maxlen=maxlen)
 for item in iterable:
 d.append(item)
 return d

# Example Usage
data = range(10)
queue = bounded_queue(data, 5)
print(queue) # Output: deque([5, 6, 7, 8, 9], maxlen=5)

در این مثال، ما یک deque با حداکثر طول 5 ایجاد می‌کنیم. هنگامی که عناصر را از range(10) اضافه می‌کنیم، عناصر قدیمی‌تر به طور خودکار حذف می‌شوند و اطمینان حاصل می‌شود که صف هرگز از حداکثر اندازه خود فراتر نمی‌رود.

2. پیاده‌سازی میانگین پنجره کشویی

میانگین پنجره کشویی، میانگین یک پنجره با اندازه ثابت را هنگام لغزش روی یک دنباله از داده‌ها محاسبه می‌کند. این در پردازش سیگنال، تجزیه و تحلیل مالی و سایر زمینه‌ها که در آن نیاز به هموارسازی نوسانات داده دارید، رایج است.

            from collections import deque

def sliding_window_average(data, window_size):
 if window_size > len(data):
 raise ValueError("Window size cannot be greater than data length")
 
 window = deque(maxlen=window_size)
 results = []

 for i, num in enumerate(data):
 window.append(num)
 if i >= window_size - 1:
 results.append(sum(window) / window_size)

 return results

# Example Usage
data = [1, 3, 5, 7, 9, 11, 13, 15]
window_size = 3
averages = sliding_window_average(data, window_size)
print(averages) # Output: [3.0, 5.0, 7.0, 9.0, 11.0, 13.0]

در اینجا، deque به عنوان یک پنجره کشویی عمل می‌کند و به طور موثر عناصر فعلی را در داخل پنجره حفظ می‌کند. همانطور که از طریق داده‌ها تکرار می‌کنیم، عنصر جدید را اضافه می‌کنیم و میانگین را محاسبه می‌کنیم، به طور خودکار قدیمی‌ترین عنصر را در پنجره حذف می‌کنیم.

3. بررسی کننده Palindrome

Palindrome یک کلمه، عبارت، عدد یا دنباله دیگری از کاراکترها است که از عقب به جلو به همان صورت خوانده می‌شود. با استفاده از deque، می‌توانیم به طور موثر بررسی کنیم که آیا یک رشته palindrome است یا خیر.

            from collections import deque

def is_palindrome(text):
 text = ''.join(ch for ch in text.lower() if ch.isalnum())
 d = deque(text)
 while len(d) > 1:
 if d.popleft() != d.pop():
 return False
 return True

# Example Usage
print(is_palindrome("madam")) # Output: True
print(is_palindrome("racecar")) # Output: True
print(is_palindrome("A man, a plan, a canal: Panama")) # Output: True
print(is_palindrome("hello")) # Output: False

این تابع ابتدا متن را پیش پردازش می‌کند تا کاراکترهای غیر الفبایی را حذف کند و آن را به حروف کوچک تبدیل کند. سپس، از یک deque برای مقایسه کارآمد کاراکترها از هر دو انتهای رشته استفاده می‌کند. این رویکرد در مقایسه با برش رشته سنتی هنگام برخورد با رشته‌های بسیار بزرگ، عملکرد بهتری را ارائه می‌دهد.

چه زمانی از deque استفاده کنیم

هنگامی که به پیاده‌سازی صف یا پشته نیاز دارید.
هنگامی که نیاز دارید به طور موثر عناصر را از هر دو طرف یک دنباله اضافه یا حذف کنید.
هنگامی که با ساختارهای داده ایمن برای رشته کار می‌کنید.
هنگامی که نیاز به پیاده‌سازی یک الگوریتم پنجره کشویی دارید.

Counter: تجزیه و تحلیل فراوانی کارآمد

Counter چیست؟

Counter یک زیرکلاس دیکشنری است که به طور خاص برای شمارش اشیاء hashable طراحی شده است. این عناصر را به عنوان کلیدهای دیکشنری و تعداد آن‌ها را به عنوان مقادیر دیکشنری ذخیره می‌کند. Counter به ویژه برای کارهایی مانند تجزیه و تحلیل فراوانی، خلاصه سازی داده‌ها و پردازش متن مفید است.

ویژگی‌های کلیدی Counter

شمارش کارآمد: Counter به طور خودکار تعداد هر عنصر را با مواجه شدن با آن افزایش می‌دهد.
عملیات ریاضی: Counter از عملیات ریاضی مانند جمع، تفریق، تقاطع و اجتماع پشتیبانی می‌کند.
متداول‌ترین عناصر: Counter یک متد most_common() برای بازیابی آسان عناصری که بیشتر تکرار می‌شوند، ارائه می‌دهد.
مقداردهی اولیه آسان: Counter می‌تواند از منابع مختلف، از جمله iterables، دیکشنری‌ها و آرگومان‌های کلمه کلیدی مقداردهی اولیه شود.

مثال‌های عملی Counter

1. تجزیه و تحلیل فراوانی کلمات در یک فایل متنی

تجزیه و تحلیل فراوانی کلمات یک کار رایج در پردازش زبان طبیعی (NLP) است. Counter شمارش وقوع هر کلمه در یک فایل متنی را آسان می‌کند.

            from collections import Counter
import re

def word_frequency(filename):
 with open(filename, 'r', encoding='utf-8') as f:
 text = f.read()
 words = re.findall(r'\w+', text.lower())
 return Counter(words)

# Create a dummy text file for demonstration
with open('example.txt', 'w', encoding='utf-8') as f:
 f.write("This is a simple example. This example demonstrates the power of Counter.")

# Example Usage
word_counts = word_frequency('example.txt')
print(word_counts.most_common(5)) # Output: [('this', 2), ('example', 2), ('a', 1), ('is', 1), ('simple', 1)]

این کد یک فایل متنی را می‌خواند، کلمات را استخراج می‌کند، آن‌ها را به حروف کوچک تبدیل می‌کند و سپس از Counter برای شمارش فراوانی هر کلمه استفاده می‌کند. متد most_common() متداول‌ترین کلمات و تعداد آن‌ها را برمی‌گرداند.

به `encoding='utf-8'` هنگام باز کردن فایل توجه کنید. این برای رسیدگی به طیف گسترده‌ای از کاراکترها ضروری است و کد شما را از نظر جهانی سازگار می‌کند.

2. شمارش فراوانی کاراکترها در یک رشته

مشابه فراوانی کلمات، می‌توانید فراوانی کاراکترهای فردی را نیز در یک رشته شمارش کنید. این می‌تواند در کارهایی مانند رمزنگاری، فشرده‌سازی داده‌ها و تجزیه و تحلیل متن مفید باشد.

            from collections import Counter

def character_frequency(text):
 return Counter(text)

# Example Usage
text = "Hello World!"
char_counts = character_frequency(text)
print(char_counts) # Output: Counter({'l': 3, 'o': 2, 'H': 1, 'e': 1, ' ': 1, 'W': 1, 'r': 1, 'd': 1, '!': 1})

این مثال نشان می‌دهد که چگونه Counter می‌تواند به راحتی فراوانی هر کاراکتر را در یک رشته شمارش کند. این فضاها و کاراکترهای خاص را به عنوان کاراکترهای متمایز در نظر می‌گیرد.

3. مقایسه و ترکیب شمارنده‌ها

Counter از عملیات ریاضی پشتیبانی می‌کند که به شما امکان می‌دهد شمارنده‌ها را مقایسه و ترکیب کنید. این می‌تواند برای کارهایی مانند یافتن عناصر مشترک بین دو مجموعه داده یا محاسبه تفاوت در فراوانی‌ها مفید باشد.

            from collections import Counter

counter1 = Counter(['a', 'b', 'c', 'a', 'b', 'b'])
counter2 = Counter(['b', 'c', 'd', 'd'])

# Addition
combined_counter = counter1 + counter2
print(f"Combined counter: {combined_counter}") # Output: Combined counter: Counter({'b': 4, 'a': 2, 'c': 2, 'd': 2})

# Subtraction
difference_counter = counter1 - counter2
print(f"Difference counter: {difference_counter}") # Output: Difference counter: Counter({'a': 2, 'b': 2})

# Intersection
intersection_counter = counter1 & counter2
print(f"Intersection counter: {intersection_counter}") # Output: Intersection counter: Counter({'b': 1, 'c': 1})

# Union
union_counter = counter1 | counter2
print(f"Union counter: {union_counter}") # Output: Union counter: Counter({'b': 3, 'a': 2, 'c': 1, 'd': 2})

این مثال نشان می‌دهد که چگونه می‌توان عملیات جمع، تفریق، تقاطع و اجتماع را روی اشیاء Counter انجام داد. این عملیات یک روش قدرتمند برای تجزیه و تحلیل و دستکاری داده‌های فراوانی ارائه می‌دهند.

چه زمانی از Counter استفاده کنیم

هنگامی که نیاز به شمارش وقوع عناصر در یک دنباله دارید.
هنگامی که نیاز به انجام تجزیه و تحلیل فراوانی بر روی متن یا سایر داده‌ها دارید.
هنگامی که نیاز به مقایسه و ترکیب تعداد فراوانی دارید.
هنگامی که نیاز به یافتن متداول‌ترین عناصر در یک مجموعه داده دارید.

defaultdict: ساده‌سازی ساختارهای داده

defaultdict چیست؟

defaultdict یک زیرکلاس از کلاس داخلی dict است. این یک متد (__missing__()) را برای ارائه یک مقدار پیش‌فرض برای کلیدهای گمشده لغو می‌کند. این فرآیند ایجاد و به‌روزرسانی دیکشنری‌ها را ساده می‌کند، جایی که شما نیاز به مقداردهی اولیه مقادیر در پرواز دارید.

بدون defaultdict، اغلب باید از if key in dict: ... else: ... یا dict.setdefault(key, default_value) برای مدیریت کلیدهای گمشده استفاده کنید. defaultdict این فرآیند را ساده می‌کند و کد شما را مختصرتر و خواناتر می‌کند.

ویژگی‌های کلیدی defaultdict

مقداردهی اولیه خودکار: defaultdict به طور خودکار کلیدهای گمشده را با یک مقدار پیش‌فرض مقداردهی اولیه می‌کند و نیاز به بررسی‌های صریح را از بین می‌برد.
ساختاردهی ساده داده‌ها: defaultdict ایجاد ساختارهای داده پیچیده مانند لیست لیست‌ها یا دیکشنری مجموعه‌ها را ساده می‌کند.
بهبود خوانایی: defaultdict کد شما را مختصرتر و درک آن را آسان‌تر می‌کند.

مثال‌های عملی defaultdict

1. گروه‌بندی موارد بر اساس دسته

گروه‌بندی موارد در دسته‌ها یک کار رایج در پردازش داده‌ها است. defaultdict ایجاد یک دیکشنری را آسان می‌کند که در آن هر کلید یک دسته است و هر مقدار یک لیست از مواردی است که متعلق به آن دسته هستند.

            from collections import defaultdict

items = [('fruit', 'apple'), ('fruit', 'banana'), ('vegetable', 'carrot'), ('vegetable', 'broccoli'), ('fruit', 'orange')]

grouped_items = defaultdict(list)
for category, item in items:
 grouped_items[category].append(item)

print(grouped_items) # Output: defaultdict(, {'fruit': ['apple', 'banana', 'orange'], 'vegetable': ['carrot', 'broccoli']})

در این مثال، ما از defaultdict(list) برای ایجاد یک دیکشنری استفاده می‌کنیم که در آن مقدار پیش‌فرض برای هر کلید گمشده یک لیست خالی است. همانطور که از طریق موارد تکرار می‌کنیم، به سادگی هر مورد را به لیست مرتبط با دسته آن اضافه می‌کنیم. این نیاز به بررسی اینکه آیا دسته از قبل در دیکشنری وجود دارد یا خیر را از بین می‌برد.

2. شمارش موارد بر اساس دسته

مشابه گروه‌بندی، می‌توانید از defaultdict برای شمارش تعداد موارد در هر دسته نیز استفاده کنید. این برای کارهایی مانند ایجاد هیستوگرام یا خلاصه سازی داده‌ها مفید است.

            from collections import defaultdict

items = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']

item_counts = defaultdict(int)
for item in items:
 item_counts[item] += 1

print(item_counts) # Output: defaultdict(, {'apple': 3, 'banana': 2, 'orange': 1})

در اینجا، ما از defaultdict(int) برای ایجاد یک دیکشنری استفاده می‌کنیم که در آن مقدار پیش‌فرض برای هر کلید گمشده 0 است. همانطور که از طریق موارد تکرار می‌کنیم، تعداد مرتبط با هر مورد را افزایش می‌دهیم. این فرآیند شمارش را ساده می‌کند و از استثنائات احتمالی KeyError جلوگیری می‌کند.

3. پیاده‌سازی یک ساختار داده گراف

گراف یک ساختار داده است که از گره‌ها (رأس‌ها) و لبه‌ها تشکیل شده است. می‌توانید یک گراف را با استفاده از یک دیکشنری نشان دهید که در آن هر کلید یک گره است و هر مقدار یک لیست از همسایگان آن است. defaultdict ایجاد چنین گرافی را ساده می‌کند.

            from collections import defaultdict

# Represents an adjacency list for a graph
graph = defaultdict(list)

# Add edges to the graph
graph['A'].append('B')
graph['A'].append('C')
graph['B'].append('D')
graph['C'].append('E')

print(graph) # Output: defaultdict(, {'A': ['B', 'C'], 'B': ['D'], 'C': ['E']})

این مثال نشان می‌دهد که چگونه از defaultdict برای ایجاد یک ساختار داده گراف استفاده کنید. مقدار پیش‌فرض برای هر گره گمشده یک لیست خالی است که نشان می‌دهد گره در ابتدا همسایه‌ای ندارد. این یک روش رایج و کارآمد برای نشان دادن گراف‌ها در پایتون است.

چه زمانی از defaultdict استفاده کنیم

هنگامی که نیاز به ایجاد یک دیکشنری دارید که کلیدهای گمشده باید یک مقدار پیش‌فرض داشته باشند.
هنگامی که موارد را بر اساس دسته گروه‌بندی می‌کنید یا موارد را در دسته‌ها شمارش می‌کنید.
هنگامی که ساختارهای داده پیچیده مانند لیست لیست‌ها یا دیکشنری مجموعه‌ها را می‌سازید.
هنگامی که می‌خواهید کد مختصرتر و خواناتری بنویسید.

استراتژی‌ها و ملاحظات بهینه‌سازی

در حالی که deque، Counter و defaultdict مزایای عملکردی را در سناریوهای خاص ارائه می‌دهند، توجه به استراتژی‌ها و ملاحظات بهینه‌سازی زیر بسیار مهم است:

مصرف حافظه: مراقب مصرف حافظه این ساختارهای داده باشید، به خصوص هنگام برخورد با مجموعه‌های داده بزرگ. در صورت محدودیت حافظه، استفاده از ژنراتورها یا تکرارکننده‌ها را برای پردازش داده‌ها در قطعات کوچکتر در نظر بگیرید.
پیچیدگی الگوریتم: پیچیدگی زمانی عملیاتی که روی این ساختارهای داده انجام می‌دهید را درک کنید. ساختار داده و الگوریتم مناسب را برای کار مورد نظر انتخاب کنید. به عنوان مثال، استفاده از یک `deque` برای دسترسی تصادفی کارایی کمتری نسبت به استفاده از یک `list` دارد.
پروفایل‌گیری: از ابزارهای پروفایل‌گیری مانند cProfile برای شناسایی گلوگاه‌های عملکرد در کد خود استفاده کنید. این به شما کمک می‌کند تعیین کنید که آیا استفاده از deque، Counter یا defaultdict در واقع عملکرد را بهبود می‌بخشد یا خیر.
نسخه‌های پایتون: ویژگی‌های عملکرد می‌تواند در نسخه‌های مختلف پایتون متفاوت باشد. کد خود را روی نسخه پایتون مورد نظر آزمایش کنید تا از عملکرد بهینه اطمینان حاصل کنید.

ملاحظات جهانی

هنگام توسعه برنامه‌ها برای مخاطبان جهانی، توجه به بهترین شیوه‌های بین‌المللی‌سازی (i18n) و محلی‌سازی (l10n) مهم است. در اینجا برخی از ملاحظات مربوط به استفاده از ماژول collections در یک زمینه جهانی آورده شده است:

پشتیبانی از یونیکد: اطمینان حاصل کنید که کد شما کاراکترهای یونیکد را به درستی مدیریت می‌کند، به خصوص هنگام کار با داده‌های متنی. از رمزگذاری UTF-8 برای همه فایل‌ها و رشته‌های متنی استفاده کنید.
مرتب‌سازی آگاه از محلی: هنگام مرتب‌سازی داده‌ها، از قوانین مرتب‌سازی خاص محلی آگاه باشید. از ماژول locale استفاده کنید تا اطمینان حاصل کنید که داده‌ها به درستی برای زبان‌ها و مناطق مختلف مرتب شده‌اند.
قطعه‌بندی متن: هنگام انجام تجزیه و تحلیل فراوانی کلمات، استفاده از تکنیک‌های قطعه‌بندی متن پیچیده‌تری را در نظر بگیرید که برای زبان‌های مختلف مناسب هستند. تقسیم ساده فضای خالی ممکن است برای زبان‌هایی مانند چینی یا ژاپنی به خوبی کار نکند.
حساسیت فرهنگی: هنگام نمایش داده‌ها به کاربران، به تفاوت‌های فرهنگی توجه داشته باشید. به عنوان مثال، قالب‌های تاریخ و شماره در مناطق مختلف متفاوت است.

نتیجه‌گیری

ماژول collections در پایتون ابزارهای قدرتمندی را برای دستکاری کارآمد داده‌ها ارائه می‌دهد. با درک قابلیت‌های deque، Counter و defaultdict، می‌توانید کد مختصرتر، خواناتر و با عملکرد بهتری بنویسید. به یاد داشته باشید که استراتژی‌های بهینه‌سازی و ملاحظات جهانی مورد بحث در این راهنما را در نظر بگیرید تا اطمینان حاصل کنید که برنامه‌های شما کارآمد و از نظر جهانی سازگار هستند. تسلط بر این ابزارها بدون شک مهارت‌های برنامه‌نویسی پایتون شما را ارتقا می‌دهد و شما را قادر می‌سازد تا با سهولت و اطمینان بیشتری به چالش‌های پیچیده داده‌ها بپردازید.